Formation Site Reliability Engineering – SRE
Site Reliability Engineering – SRE
La formation « Site Reliability Engineering - SRE » vous permettra de comprendre les principes fondamentaux de la Site Reliability Engineering et son rôle au sein des organisations modernes; de mettre en œuvre des outils et des pratiques pour améliorer la fiabilité des systèmes et de diagnostiquer et résoudre efficacement des incidents en production tout en rédigeant des rapports exploitables. Cette formation vous permettra également d'identifier des tâches répétitives (toil) et proposer des solutions d'automatisation pour améliorer l'efficacité des équipes et de concevoir des systèmes tolérants aux pannes et résilients grâce à des pratiques comme l'ingénierie du chaos et une approche centrée sur l'observabilité. Le programme est donné à titre indicatif et sera adapté à vos besoins et votre niveau après audit. N’hésitez pas à nous contacter pour toute demande spécifique.

En résumé
Distanciel
Présentiel
Pré-requis
Connaissance de base en systèmes informatiques et infrastructure (serveurs, réseaux), compréhension des concepts DevOps.
Public concerné
Ingénieurs développement logiciel, administrateurs système, ingénieurs DevOps, managers techniques, chef de projet.
Durée et tarif de la formation
La durée de la formation varie en fonction des besoins et des objectifs déterminés après audit. Les tarifs sont disponibles sur devis.
Lieux
Formation intra-entreprise au sein de votre établissement ou dans nos locaux de LA ROCHELLE (Charente-Maritime), NIORT (Deux-Sèvres) ou POITIERS (Vienne)
Téléchargement
Télécharger le programme de formation au format PDF
Contenu de la formation
- L’émergence de la SRE chez Google et son lien avec DevOps.
- Rôles et responsabilités d’une équipe SRE.
- Cycle de vie d’un logiciel et gestion de la fiabilité.
- Monitoring vs observabilité : différences et complémentarité.
- Concepts clés : logs, métriques, traces, alertes.
- Mise en pratique : concevoir un système d’alertes efficace.
- Définitions et importance pour la fiabilité des systèmes.
- Introduction à la gestion des budgets d’erreur.
- Étude de cas : définir des SLO et calculer un budget d’erreur.
- Organisation des équipes on-call et bonnes pratiques.
- Diagnostiquer efficacement un incident.
- Rédiger des rapports post-incident (blameless postmortems).
- Exercice : étude d’un incident fictif.
- Identifier les tâches répétitives et à faible valeur ajoutée.
- Stratégies pour l’automatisation efficace.
- Atelier : repérer des tâches automatisables dans un environnement simulé.
- Conception pour la résilience et la tolérance aux pannes.
- Introduction à l'ingénierie du chaos : principes et mythes.
- Exemples concrets d'exercices GameDay.
- Traçage distribué et instrumentation.
- Les piliers de l’observabilité full stack.
- Atelier : implémenter des contrôles synthétiques pour un système distribué.
- Intégration des SRE dans une organisation agile.
- Construire une culture de sécurité psychologique et d’apprentissage continu.
- Impact de la SRE sur les équipes DevOps.